La science, la cité

Aller au contenu | Aller au menu | Aller à la recherche

Mot-clé : évaluation de la recherche

Fil des billets - Fil des commentaires

Les mathématiques comme science sociale et conséquences pour son évaluation

A part classer les chercheurs ou les universités le dimanche, la bibliométrie sert aussi à  comprendre la structure d'une discipline ou de la science en général. C'est pour cela qu'elle fait partie de la boîte à  outil de cette "science de la science" qu'est la scientométrie. Notamment pour mieux cerner les mathématiques, une science décidément à  part.

Tout commence avec un article récent de Stephen J. Bensman, truffé de statistiques, qui analyse la différence de distribution des citations dans les revues de "science dure" et les revues de sciences humaines et sociales en 2005. Il constate notamment qu'en sciences dures, la distribution est binomiale négative tandis qu'elle est de type Poisson en sciences sociales. Concrètement, cela signifie que la distribution est beaucoup plus aléatoire dans ce second cas : la vaste majorité des revues de sciences sociales se répartissent quasi-uniformément entre les trois premiers 20-quantiles (histogramme ci-dessous), alors que 82% des revues de science dure sont concentrées dans le premier 20-quantile.

Dans les deux cas en tous cas, les distributions sont extrêmement asymétriques. La majorité des articles sont pas ou peu cités, et donc les facteurs d'impact décollent difficilement de zéro. On peut dès lors s'intéresser aux quelques revues les plus citées, celles qui traduisent d'autres comportements distinctifs de leur champ. Ainsi, on constate que chaque numéro des 64 revues les plus citées en science dure a une probabilité de 75% de contenir un article de synthèse (review article), contre 7% dans les 60 revues à  fort facteur d'impact en sciences sociales. Il ne fait aucun doute que les sciences sociales utilisent beaucoup moins l'article de synthèse, dont la fonction est d'établir des consensus, préludes à  la cristallisation de paradigmes. On touche là  en effet à  une différence de fonctionnement entre les deux champs : on considère généralement que les sciences sociales sont organisées en "écoles de pensée", co-existant les unes à  côté des autres, parfois depuis des décennies (bourdieusiens, marxistes…) tandis que les sciences dures avancent dans une unique direction, jalonnée par des articles de synthèse, en faisant peu appel à  la littérature plus ancienne qu'une dizaine d'années. Au sein des sciences sociales, on peut cependant distinguer la psychologie et les sciences du comportement, qui se comportent plutôt comme des sciences dures avec une forte asymétrie et de nombreux articles de synthèse !

Mais qu'en est-il des mathématiques ? Ce n'est encore qu'une intuition mais le même Stephen Bensman suggérait sur une liste de diffusion qu'elles ressemblent plus aux sciences sociales qu'aux sciences dures. Le facteur d'impact des revues de mathématiques est compris entre 0,108 et 2,739, soit un écart très restreint, et les revues les plus citées ne contiennent aucun article de synthèse. On reconnaît les signes d'une loi de distribution des citations extrêmement aléatoire et de l'absence de développement de paradigmes consensuels. Qui plus est, le graphique ci-dessous extrait d'un rapport de l'International Mathematical Union (IMU) montre bien que l'obsolescence des articles en mathématiques est extrêmement lente, voire inexistante, bien loin de la biologie cellulaire. Encore l'indice d'une science sociale.

Certes, on pourrait reprocher aux critères utilisé leur pauvreté. Mais sous cet angle toutefois, l'hypothèse semble bien tenir la route… Surtout, il en découle une conséquence directe : comme en sciences sociales, cela ne fait aucun sens d'évaluer les mathématiciens par des indicateurs de citation. En effet, qui dit absence de paradigmes faisant consensus dit impossibilité d'évaluer un chercheur de façon mécanique. Plutôt que d'avoir affaire à  des chercheurs bons ou mauvais dans un paradigme donné, on a affaire à  des chercheurs travaillant dans des paradigmes différents et donc impossibles à  comparer entre eux. L'analyse des citations, surtout dans un intervalles aussi petit, ne nous apprend quasiment rien. Pour preuve, la corrélation entre l'évaluation par les pairs des écoles doctorales mené en 1993 aux Etats-Unis par le National Research Council et les citations obtenues par chaque faculté n'est que de 56% en mathématiques. A comparer, par exemple, avec les 81% de la chimie ou les 70% de la physique !

Partage

Les comptes truqués du facteur d'impact, suite et fin ?

Rappel : premier et deuxième épisode.

Depuis janvier dernier, deux rebondissements ont eu lieu dans l'affaire opposant le rédacteur en chef du Journal of Cell Biology et Thomson Scientific, producteur du facteur d'impact. David (du C@fé des sciences) a aussi écrit dans Sciences et avenir un article qui aborde avec brio la question du facteur d'impact et mentionne, entre autres, la désormais célèbre "affaire du Journal of Cell Biology". L'occasion de revenir sur le sujet.

Dans la revue Laboratory Investigations, deux membres de son comité éditorial prennent un malin plaisir à  expliquer comment, eux, ont d'excellentes relations avec l'équipe de Thomson Scientific et comment leur utilisation des données fournies par cette entreprise leur a toujours permis de retrouver au centième près la valeur du facteur d'impact annoncée. Ils s'amusent même à  en donner la méthodologie complète, soulignant que les auteurs de l'article qui a mis le feu aux poudres s'en étaient dispensés ! Qui plus est, écrivent-ils, la constance, la transparence et l'utilité des données de Thomson Scientific sont confirmées par un petit exercice auquel ils s'étaient livrés : calculer, avant sa parution, le facteur d'impact 2006 de 6 revues de pathologie, en tenant compte de la dynamique temporelle observée. Résultat : Dans 5 cas sur 6, la prédiction était correcte à  95%.

En parallèle, Roger A. Brumback publiait dans la revue Journal of Child Neurology (décidément, c'est toute la communauté des biologistes qui s'est sentie concernée), dont il est le rédacteur en chef, un article provocateur intitulé "Chérir de fausse idoles : le dilemme du facteur d'impact". Il compare d'abord l'apparition du facteur d'impact à  l'invention de la dynamite par Alfred Nobel et de la fission nucléaire par Enrico Fermi : de paisibles découvertes qui ont eu littéralement des conséquences explosives et, dans le cas du facteur d'impact d'Eugene Garfield, menace de détruire l'activité scientifique telle que nous la connaissons. Et d'expliquer comment un simple indicateur de l'importance des revues, permettant de choisir lesquelles doivent être indexées dans les revues d'abrégés ou souscrites par les bibliothèques, est devenu le mètre étalon des revues scientifiques, des chercheurs, des comités d'évaluation et des gouvernements. Et il se livre à  son tour à  un décorticage en règle du facteur d'impact 2006 de sa revue, s'arrêtant notamment sur la disparité entre PubMed et les données de Thomson Scientific en ce qui concerne la nature des articles publiés (PubMed comptabilise 207 articles publiés en 2005, dont 33 revues de synthèse, alors que Thomson Scientific comptabilise 213 articles dont seulement 6 revues de synthèse). Certes l'écart peut s'expliquer par des différences de tour de main, et Dieu sait qu'elles existent et peuvent même se négocier au cas par cas chez Thomson Scientific, mais on revient à  la délicate question de la transparence des choix effectués. Car ce nombre, qui se retrouve en dénominateur, conditionne directement le calcul de l'impact facteur.

Enfin, on notera le dernier numéro de la revue en accès libre Ethics in Science and Environmental Politics consacré à  l'usage (et mauvais usage) des indicateurs bibliométriques dans l'évaluation de la performance de la recherche. Avec quelques plumes en vue, comme Stevan Harnad que l'on ne présente plus, Anne-Wil Harzing créatrice du logiciel "Publish or perish" et Philip Campbell, le rédacteur-en-chef de la revue Nature qui est un habitué du sujet...

Partage

Comment le retard vient aux Français

La France est en retard sur les Etats-Unis, il faut combler le retard de notre recherche, nous avons pris du retard : voilà  ce que les déclinologues répètent de façon tellement récurrente qu'on pourrait s'étonner, au moment où nous entrons dans le XXIe siècle, que la France ne soit pas déjà  larguée par le reste de l'Occident. En fait, cette rhétorique n'est pas innée mais largement produite selon des normes et des contextes particuliers comme le montre Julie Bouchard dans un livre qui vient de paraître et un article pour Futuribles disponible sur son site internet (sur lequel je vais m'appuyer dans ce billet).

Julie Bouchard constate d'abord que la rhétorique du retard est indissociable de l'idéologie du progrès, depuis le XVIIIe siècle déjà . Ainsi de Claude Bernard, faisant la promotion de sa nouvelle médecine expérimentale : Je leur montre la voie nouvelle et je leur dis : suivez-là , car sans cela vous serez en retard. Le retard est alors conçu comme une atteinte à  la science elle-même, comme une anomalie dans le fonctionnement régulier de la science et devient inadmissible dans la mesure où la dynamique du progrès n'est pas qu'interne à  la science mais soutenue à  la fois par les scientifiques et par la société qui lie pour partie et implicitement les progrès autonomes de la science au progrès de la société toute entière que ce soit en termes de bonheur, de richesse, de santé publique, etc.

Mais le retard peut également se voir comme une traduction du fait que si la science avance, elle ne le fait pas indépendamment d'autres disciplines scientifiques ou d'autres aspects de la société. On lit par exemple dans le troisième rapport du Commissariat général du Plan (1958-1961) que les progrès de la recherche médicale sont liés à  ceux de la biologie, de la physique, de la chimie, de l'électronique, etc. Et les responsables du Plan de noter dans l'exercice suivant (1962-1965) que tout retard constaté dans une branche doit rapidement être comblé, si l'on ne veut pas tôt ou tard gêner la progression de l'ensemble. Cette interdépendance, on peut la voir comme un attribut de la modernité scientifique. Et puisque la science doit bénéficier à  la société, on trouve dans la même série de rapports ce type d'arguments : Il s'agit de rattraper ce retard, de combler des lacunes et, d'une façon générale, de donner à  la science française les moyens intellectuels et matériels nécessaires pour lui permettre de faire face à  ses responsabilités envers l'économie et la défense nationale.

Etrangement, le retard temporel est souvent fondé sur une comparaison géographique, étant entendu qu'un écart négatif observé entre régions ou nations doit être atténué. Cette évidence ne va pas plus de soi quand on regarde les précédentes acceptions de la notion de retard, absolument pas fondées sur la comparaison entre nations. Il semble qu'on peut la faire remonter à  Jean Monnet et les années 1945, sachant qu'elle prendra son essor dans les années 1960 en même temps que la pratique de la comparaison internationale dans le champ politique ou des sciences sociales. C'est aussi la période où l'Union soviétique n'est plus l'horizon de la France, remplacé par les Etats-Unis, qui deviennent le principal indicateur du retard de la France. Le thème du "science gap" relève alors d'un argumentaire magnétisé, d'un côté, par le "dynamisme" américain érigé en "exemple" et, d'un autre côté, par la "menace" de la "colonisation économique" de l'Europe par l'Amérique. C'est aussi le moment où le recours aux statistiques internationales sur la recherche et la technologie, comme celles de l'OCDE, devient systématique : l'argument du retard peut désormais se chiffrer, comme ici :

On peut avoir une idée de cette insuffisance de la recherche forestière en France en comparant les moyens qui lui étaient affectés en 1957 par différents pays. USA, 1 chercheur pour 250 000 ha de forêts exploitables ; Suisse, 1 chercheur pour 100 000 ha de forêts exploitables (…). Il est donc nécessaire de réorganiser et de développer au cours des années qui viennent la recherche forestière, afin de rattraper, dans la mesure du possible, le retard qui vient d'être constaté.

Un dernier type de retard est celui de la règle politico-administrative, conçu comme un écart négatif entre la réalité et les objectifs fixés dans un cadre administratif ou managérial, qui monte en puissance depuis la construction de l'Espace européen de la recherche. Il en va ainsi du retard pris par le Ve Plan, dont la dénonciation est aussi celle des carences gouvernementales, ou du retard pris sur l'agenda de Lisbonne autour duquel se cristallisa en partie le mouvement "Sauvons la recherche".

Finalement, ce n'est pas malgré le retard mais avec lui que se construit le progrès scientifique et technique en France. L'argument se retrouve en effet à  l'origine de certaines politiques de la recherche en France, car la rhétorique du retard consiste non seulement à  énoncer, mais aussi à  dénoncer un état de fait pour justifier un ensemble d'actions, de décisions, de revendications. Et pour cela, c'est bien à  quatre "régimes de normativité" qu'elle emprunte cahin-caha : celui du progrès de la science, celui de l'interdépendance, celui de la comparaison géographique et celui du management.

Partage

La mal-mesure de la science

Ce très beau titre est emprunté à  Peter Lawrence, auteur de l'article "The mismeasurement of science" paru dans un numéro récent (août 2007) de la revue Current Biology. Un article qui, ouvrant sur la citation anthologique de Leà³ Szilà¡rd, ne peut pas être foncièrement mauvais…

Par contre, il sera nécessairement militant. C'est effectivement une charge contre le fonctionnement actuel de la recherche scientifique et en particulier l'évaluation des chercheurs. Lawrence hait le facteur d'impact et les indicateurs de production de la recherche. Nonobstant le fait que ceux-ci ne sont qu'un moyen d'évaluation parmi d'autres, je me permets de remettre ici quelques pendules à  l'heure :

  • oui, c'est l'impact des revues où publient les chercheurs qui est mesuré avant tout, et non l'impact de leurs articles eux-mêmes. Parce que cette seconde donnée est plus difficile à  obtenir et que la première en fournit une bonne approximation. Surtout, parce que c'est une évaluation statistique valable à  une échelle macroscopique qui ne devrait jamais s'appliquer telle quelle à  un chercheur X ou Y[1]. Alors, l'exemple de l'article qui s'est avéré faux mais a été publié dans une "bonne" revue et rapportera un bon poste ne devrait jamais être rencontré : les indicateurs quantitatifs ne sont pas destinés à  remplacer l'examen en détail du CV de leurs candidats ;
  • oui, l'index de Hirsch (h-index, qui vaut n si j'ai publié au moins n articles cités n fois) est une exception en ce qu'il s'intéresse aux articles eux-mêmes et se calcule chercheur par chercheur. Avec des bémols cependant… Même chose pour les facteurs d'usage ;
  • non, les indicateurs de citation ne sont pas des mesures de l'importance ou de la pertinence d'une recherche mais de sa visibilité. Je répète : plus un article est visible plus il sera cité, et vice-versa, et c'est tout ! La visibilité est parfois corrélée à  des avancées importantes mais elle l'est aussi à  des controverses, des articles étonnants ou des revues de littérature.

Un grand moment de l'article est la réflexion de l'auteur sur ses propres pratiques de citation : parmi les 48 références d'un de ses articles, seules huit sont adéquates au sujet de l'article alors que trois sont fautives et 37 sont fortuites (tout autre article similaire aurait pu être cité à  la place). Et l'auteur pointe avec justesse la question de l'hyper-cosignature et de la tendance à  mettre son nom partout, que l'on soit proche ou non des travaux publiés, ainsi que la cascade des refus qui veut que l'on soumette d'abord son manuscrit à  Nature puis à  Cell avant le Journal of Plant Science et le Bulletin of Cellular Plant Studies : mes lecteurs peuvent-ils confirmer ou infirmer cette pratique ?

Alors oui, les critiques de Lawrence sont justes et il arrive à  synthétiser certains problèmes que rencontre actuellement la recherche (je n'ai rien dit sur les défauts du peer-review, le manque d'un code éthique etc.). Mais elles sont parfois exagérées parce qu'il prend les indicateurs au pied de la lettre, comme d'ailleurs la plupart de ceux qui les produisent ou les commanditent. Vivement un usage éclairé des indicateurs de recherche !

Notes

[1] Pour citer Michel Zitt, de l'OST : Le physicien et historien des sciences, D. de Solla Price, voyait la bibliométrie, dont il était un père fondateur, comme une approche essentiellement statistique et soulignait qu'il ne s'intéressait pas aux cas individuels. Même s'il faut souvent descendre au niveau individuel pour faire de l'évaluation bibliométrique (en raison notamment de la forme des distributions statistiques, par exemple certains individus particulièrement visibles dans leur domaine « préemptent » une grande partie des citations et influent fortement les indicateurs), celle-ci n'a pas grand-chose à  apporter à  l'évaluation individuelle.

Partage

Les Académiciens discutent de l'accès libre

Hourrah, nos (vieux) Académiciens des sciences se préoccupent des nouveaux enjeux de l'édition scientifique, notamment l'accès libre (open access), et mettent en ligne les vidéos du colloque consacrées à  ce sujet ! Quelques remarques, à  lire en sus du compte-rendu d'Affordance.

Un débat intéressant : la place du facteur d'impact dans l'évaluation des chercheurs. Pierre Joliot s'est ému (1'53'') de ce qu'un indicateur quantitatif si mécanique puisse dire s'il est un bon ou mauvais chercheur, sachant d'expérience que ce qu'il (et Etienne Joly, un autre intervenant) considère comme ses meilleurs articles sont finalement les moins cités. Deux réponses à  cela :

  • le facteur d'impact n'a jamais été un indicateur de qualité mais bien de visibilité : plus vous êtes cité, plus vous êtes visible et vice-versa (notamment parce qu'on peut être cité pour de bonnes ou mauvaises raisons) ;
  • si le facteur d'impact ne peut juger de la qualité d'un article, si même aucun indicateur quantitatif ne le peut, un Homme le peut-il ? Ce que Joliot considère comme ses meilleurs articles sont les plus originaux, explique-t-il. Les plus novateurs. Un pair (disons quelqu'un qui évaluerait le travail de Joliot ou son équipe pour le compte du CNRS) qui passerait en revue la bibliographie de Joliot s'arrêterait-il sur cette poignée d'articles encore incompris ou bien considèrerait-il que les autres sont les plus marquants ? Je penche pour la deuxième solution, ce qui me fait dire que malgré son imperfection, l'analyse des citations (quand elle est bien menée et interprétée) ne fait que reproduire le comportement d'évaluation des chercheurs. Logique, puisque c'est finalement ce qu'ils font tous les jours quand ils décident de citer un tel ou un tel !

En fait, si la qualité perçue par les pairs est empiriquement corrélée au nombre de citations reçues, celui-ci est bien plus significativement corrélé à  la faible créativité — c'est à  dire que les articles ne rentrant pas dans les cadres conceptuels existants ou dans les normes sociales en cours dans un domaine académique[1] sont moins cités. Peut-être justement, expliquent les auteurs de ce travail, parce qu'ils sont moins utilisés, et donc moins visibles rajouterais-je.

Un autre débat intéressant : comment suivre le volume exponentiel de littérature produit ? Le représentant de PLoS met en avant les capacités présentes ou à  venir de la fouille de texte et de données, notamment sur la base Pubmed Medline. Etienne Joly, lui, conseille l'utilisation d'outils comme Faculty of 1000 ou les alertes de citations fournies par Thomson/ISI. Autant de services payants… Pas un mot sur le web 2.0 et l'intelligence collective — gratuite — façon suivi des articles les plus populaires sur CiteULike par domaine ou des articles les plus blogués sur Postgenomic. Des outils à  améliorer, certes, mais déjà  utiles !

Enfin, une information importante que j'ignorais (10' 47'') : à  partir de 2008-2009, le dépôt des publications dans l'archives en accès libre HAL sera rendu "indirectement obligatoire" par l'INSERM. En fait, cela signifie que, dès cette date, ne seront regardés pour la création des unités que les articles qui y sont déposés. On peut imaginer en effet le temps gagné lors de l'évaluation des chercheurs si les publications sont toutes regroupées au même endroit et librement accessibles ! Décidément, on n'aura de cesse de trouver des avantages à  l'accès libre aux résultats de la recherche (que ce soit l'auto-archivage par les auteurs ou les revues en accès libre)…

Notes

[1] W. R. Shadish, D. Tolliver, M. Gray et S. K. Sen Gupta (1995), "Author judgments about works they cite: Three studies from psychology journals", Social Studies of Science, 25: 477-498 (DOI)

Partage

- page 2 de 3 -